Text copied to clipboard!

Título

Text copied to clipboard!

Engenheiro de Confiabilidade de Sites

Descrição

Text copied to clipboard!

Estamos à procura de um Engenheiro de Confiabilidade de Sites altamente qualificado para se juntar à nossa equipe de tecnologia. Este profissional será responsável por garantir que nossos sistemas e serviços online sejam altamente disponíveis, escaláveis e resilientes. O candidato ideal terá uma sólida experiência em engenharia de software, operações de sistemas e práticas de DevOps, com foco em automação, monitoramento e resposta a incidentes. Como Engenheiro de Confiabilidade de Sites, você trabalhará em estreita colaboração com equipes de desenvolvimento, operações e segurança para projetar e implementar soluções que melhorem a confiabilidade e o desempenho de nossos serviços. Você será responsável por identificar pontos de falha, implementar práticas de engenharia de confiabilidade e liderar iniciativas de melhoria contínua. Suas responsabilidades incluirão a criação e manutenção de ferramentas de monitoramento, a definição de indicadores de nível de serviço (SLIs) e objetivos de nível de serviço (SLOs), além de participar de análises pós-incidente para garantir que os problemas não se repitam. Você também atuará como um defensor da cultura de confiabilidade dentro da organização, promovendo boas práticas e colaborando com outras equipes para alcançar metas comuns. Este papel exige habilidades técnicas avançadas, capacidade de resolver problemas complexos sob pressão e uma mentalidade proativa. Se você é apaixonado por sistemas distribuídos, automação e melhoria contínua, esta é a oportunidade ideal para você.

Responsabilidades

Text copied to clipboard!

Garantir a alta disponibilidade e desempenho dos serviços online
Desenvolver e manter ferramentas de monitoramento e alerta
Definir e acompanhar SLIs e SLOs
Colaborar com equipes de desenvolvimento e operações
Automatizar processos operacionais e de implantação
Participar de análises pós-incidente e implementar ações corretivas
Melhorar continuamente a confiabilidade dos sistemas
Documentar processos e práticas recomendadas
Conduzir testes de resiliência e recuperação
Promover a cultura de confiabilidade na organização

Requisitos

Text copied to clipboard!

Formação em Ciência da Computação, Engenharia ou área relacionada
Experiência com sistemas distribuídos e em larga escala
Conhecimento em linguagens como Python, Go ou Java
Experiência com ferramentas de monitoramento como Prometheus, Grafana ou Datadog
Familiaridade com práticas de DevOps e CI/CD
Conhecimento em containers e orquestração (Docker, Kubernetes)
Capacidade de análise e resolução de problemas complexos
Experiência com gestão de incidentes e resposta a falhas
Boa comunicação e trabalho em equipe
Inglês técnico para leitura e escrita